Cursor 凌晨自曝黑科技:重写 MoE 生成机制,Blackwell 推理性能直接翻倍!网友:直接榨干B200最后一滴带宽!
Cursor 凌晨自曝黑科技:重写 MoE 生成机制,Blackwell 推理性能直接翻倍!网友:直接榨干B200最后一滴带宽!今天早上,Cursor 在X上发布一条推文:“我们重建了 MoE 模型在 Blackwell GPU 上生成 Tokens 的方式,导致推理速度快了 1.84 倍。”
今天早上,Cursor 在X上发布一条推文:“我们重建了 MoE 模型在 Blackwell GPU 上生成 Tokens 的方式,导致推理速度快了 1.84 倍。”
2025 年 4 月,Sand.ai 开源了 MagiAttention v1.0.0,定义了下一代分布式 Attention 的全新设计和系统框架。历经一年的深耕,今天 Sand.ai 正式发布:MagiAttention v1.1.0,以更成熟的原生算子组件,重新定义 Hopper 与 Blackwell 两代架构分布式 Attention 的性能上限。
所有用英伟达Blackwell B200的人,都在花冤枉钱??
近日,深度学习领域重要底层优化技术 FlashAttention 迎来大版本更新。FlashAttention 核心作者、普林斯顿大学助理教授 Tri Dao 表示,在 Blackwell GPU 上,即使瓶颈截然不同,注意力机制的执行速度现在也几乎与矩阵乘法一样快了!
2025 年 11 月 20 日,英伟达公布最新季度财报,2025 年 Q3 营收为 570.06 亿美元,较上年同期的 350.82 亿美元增长 62%;净利润为 319.10 亿美元,较上年同期的 193.09 亿美元增长 65%。英伟达强大的吸金能力再次超出所有人的预期,三年前英伟达的同期营收仅是现在的十分之一。
在正在举办的半导体行业会议 Hot Chips 2025 上,TogetherAI 首席科学家 Tri Dao 公布了 FlashAttention-4。
英伟达直接把服务器级别的算力塞进了机器人体内。 全新的机器人计算平台Jetson Thor正式发售,基于最新的Blackwell GPU架构,AI算力直接飙升到2070 TFLOPS,比上一代Jetson Orin提高至整整7.5倍,同时能效提高至3.5倍。
老黄在GTC 2025大会上,再次亮出了英伟达未来GPU路线图。随着推理token的暴增,AI计算需要全新的范式,下一代BlackWell Ultra、Vera Rubin就是最强的回应。
本周三,各路媒体对英伟达 GeForce RTX 5090 的评测宣告解禁。基于最新 Blackwell 架构,新一代旗舰显卡无疑将成为未来几年你能买到的最好的显卡。
2025 CES上最具话题性的两家公司,都谈到了AI PC的核心话题。 在通过新一代Blackwell 架构的英伟达 RTX 5090 显卡炸场后,黄仁勋彻底点燃了CES开场情绪。但其后,他依然不得不在会后交流中回应关于AI PC“销量没能起飞”的尖锐话题。